طبقه بندی موضوعی اسناد با استفاده از رویکرد هسته
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز
- نویسنده مرتضی دولتی
- استاد راهنما محمدرضا فیضی درخشی لیلی محمدخانلی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1390
چکیده
طبقه بندی اسنادltrfootnote{text classification, text categorization} عبارت است از نسبت دادن یک سند به یک یا چند موضوع از پیش تعیین شده. در سال های اخیر تولید اسناد متنی دیجیتال با یک رشد نمایی مواجه بوده است، به همین دلیل لزوم طبقه بندی صحیح آن ها برای دسترسی بهتر امری ضروری به نظر می رسد. کاربرد طبقه بندی اسناد می توان بسیار متنوع باشد، طبقه بندی صفحات وب، متون علمی، اخبار، رایانامه، کتاب و ... جستجو برای یک عبارت در google اکنون به چیزی فراتر از یک واقعیت تبدیل شده است. در آینده? نزدیک با پیشرفت روش های طبقه بندی اسناد، نحوه? دسترسی مردم به اطلاعات به نحوی شگرفی تغییر خواهد کرد. طبقه بندی اسناد شامل یک مدل یادگیرنده برای مجموعه ای از کلاس ها و بکار بردن آن ها برای اسناد جدید و انتساب یک کلاس به آن ها می باشد. این امر اکثراً یک کار آموزشی به همراه یک مربی می باشد. به این صورت که یک مجموعه? آموزشی اولیه که شامل تعداد سند و موضوعات از پیش تعیین شده می باشد، به عنوان ورودی به سیستم داده می شود. سپس سیستم برای شناسایی موضوع سایر اسناد آموزش داده می شود. این مراحل شامل پیش پردازش (نمایش سند، کاهش ابعاد و استخراج ویژگی ها) و مراحل آموزش و آزمایش می باشد. عموماً مرحله? پیش پردازش شامل ??? زمان و تلا ش های محاسباتی می شود. با توجه به اینکه روش های مبتنی بر هسته قابلیت های زیادی از خود نشان داده اند، توسعه? یک روش مبتنی بر رویکرد هسته برای زبان فارسی مد نظر قرار داده شد. طبقه بندی متون زبان فارسی به دلیل پیچیدگی ها و مشکلاتی که دارد (اکثر این مشکلات متوجه زبان فارسی نبوده و از آگاهی کم افراد ناشی می شود)، کاری دشوار می باشد. برای انجام طبقه بندی یک سری پیش نیازهایی وجود دارد (همانند سایر زبان ها)، مثلاً وجود یک فهرست از کلمات ایست (همانند فهرست های متنوعی که برای زبان انگلیسی وجود دارد)، وجود یک روش استاندار و قابل قبول برای ریشه یابی (همانطور که زبان انگلیسی وجود دارد). متأسفانه علی رغم اینکه کارهای تحقیقاتی زیادی در این حوزه صورت گرفته است، ولی به دلیل منسجم نبودن کارها و عدم حمایت از سوی یک نهاد واحد، تلاش ها آن طور که شایسه و بایسته است به ثمر ننشسته است و این مسأله انجام کارهایی را که مراحل ذکر شده به عنوان سنگ بنای آن می باشد، دشوارتر نموده است. نگارنده علی رغم پیگیری ها و تماس های مکرری که با فرهنگستان زبان و ادب فارسی داشته است، موفق به جلب نظر آن ها برای همکاری در این پروژه نشده است. حتی اجازه? دسترسی به نتایج تحقیقات گذشته نیز به راحتی مقدور و میسر نبوده است. با توجه به همه? مشکلاتی که برشمرده شد، در نهایت یک روش مبتنی بر هسته برای طبقه بندی متون دیجیتال فارسی توسعه داده شد. متأسفانه به دلیل نبود یک روش و مجموعه? استاندارد (همانند نمونه هایی که برای زبان انگلیسی وجود دارد)، امکان مقایسه? این روش با سایر روش های موجود برای زبان فارسی به صورت کامل محیا نشد. البته تا جایی که مقدور بوده است، از روش های استاندارد ارزیابی استفاده شده است. انجام آزمایش ها با استفاده از متون انتخابی از اخبار خبرگزاری جمهوری اسلامی انجام پذیرفته است (البته آموزش های سیستم نیز با استفاده از بخشی از این اسناد انجام گرفته است).
منابع مشابه
طبقه بندی سنگ های ساختمانی از دیدگاه قابلیت برش با استفاده از روش خوشه بندی فازی
پیش بینی قابلیت برش سنگ به عنوان یکی از فاکتورهای موثر در تخمین هزینهها و پیش بینی میزان تولید یک کارخانه فرآوری سنگ از اهمیت بالایی برخوردار میباشد. بنابراین شناخت کامل سنگهای ساختمانی و ارزیابی توان اجرایی دستگاههای برش در کارخانههای فرآوری، طراحان و برنامهریزان تولید را به سمت بهبود سرعت فرآوری و افزایش تولید سوق میدهد. از اینرو، به کارگیری روشهای نو و کاربردی برای دستیابی به این اه...
متن کاملتوسعه و تبیین یک پیکربندی برای طبقه بندی زنجیرههای تامین با استفاده از رویکرد منبع محور در صنعت خودرو
مدیریت استراتژیک زنجیرههای تامین در سالهای اخیر توجه زیادی را به خود جلب کرده است. رویکرد پیکربندی زنجیره تامین برای مدیریت استراتژیک جریان مواد و اطلاعات زنجیره تامین مطرح میباشد. اکثر پیکربندیهای ارائه شده تا به حال در بخش جهتگیری استراتژیک مبتنی بر عوامل محیطی و رویکرد کلاسیک ساختار-رفتار-عملکرد میباشد. بررسی پیکربندیهای زنجیره تامین از نظر منابع و توانمندیهای استراتژیک زنجیرههای تا...
متن کاملتحلیل صدای گریه نوزاد با استفاده از طبقه بند بازنمایی تنک مبتنی بر هسته
پردازش صدای گریه نوزاد اطلاعات مفیدی در مورد وضعیت نوزاد در اختیار قرار میدهد. این اطلاعات میتواند به منظور تشخیص بیماری و یا درک نیاز نوزاد استفاده شود. این مقاله به تحلیل صدای گریه نوزاد با رویکرد تفکیک دو نوع منشاء درد و گرسنگی در صدای گریه پرداخته است. الگوهای بازنمایی تنک علامت (سیگنال) یکی از جدیدترین ابزارهای پردازش در حوزه بازشناسی الگو است. از اینرو، در مقاله جاری چارچوبی جدید ب...
متن کاملنقد و بررسی طبقه بندی های موضوعی قرآن
طبقه بندی موضوعی قرآن پیشنه ای طولانی دارد اما در عصر حاضر تحول زیادی در این حوزه رخ داده و طبقه بندی های مختلفی شکل گرفته است. این طبقه بندی ها در دو شکل طبقه بندی مستقل و طبقه بندی تفاسیر موضوعی از موضوعات قرآن قابل دسته بندی است. بخش قابل توجهی از طبقه بندی های مستقل، استقصای کاملی از موضوعات قرآنی ندارند و روال منطقی در بررسی موضوعات آن ها وجود ندارد. هم چنین نوعی سلیقه نیز در تنظیم این دست...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023